机器学习漫谈:神经网络的复苏 您所在的位置:网站首页 詹姆斯 哈特 机器学习漫谈:神经网络的复苏

机器学习漫谈:神经网络的复苏

2023-08-15 20:58| 来源: 网络整理| 查看: 265

图3 大卫·E·鲁梅尔哈特(左)和詹姆斯L麦克莱兰(右)

复兴时期最重要的事件之一是鲁梅尔哈特在1986年提出新的学习过程——在神经元网络中反向传播算法(参考资料[3])。该过程重复地调整网络中的连接的权重,以便最小化网络的实际输出向量和期望输出向量之间的差的度量。此后,连接主义快速发展,从模型到算法,从理论分析到工程实现,为神经网络的未来发展打下重要的基础。

这个时期的人工神经网络(ANN),有时也称连接模型和并行分布式处理(PDP)模型。出现不同名称原因之一,是在人工智能的寒冬里,一些研究项目不使用人工智能或神经网络名义,以避免筹集资金的麻烦。

1986年和1987年,鲁梅尔哈特、麦克莱兰和PDP研究小组分别出版了两卷著作《并行分布式处理(PDP)》(参考资料[1]和[2])。

是什么使人类比计算机更聪明?他们的答案是在于人类思维的大规模并行体系结构。在PDP一书中,他们描述了一种称为“连接主义”的新认知理论。作者假设大脑由神经网络中连接的大量基本单元组成。心理过程是这些单元之间的相互作用,它们以并行而非串行的方式相互激发和抑制。在这种情况下,知识不再被认为是存储在局部结构中。相反,它由分布在整个网络中的成对单元之间的连接组成。该书的第1卷奠定了并行分布式处理理论的基础,而第2卷将其应用于认知科学和神经科学中的许多特定问题,介绍了感知,记忆,语言和思想方面的模型。有些章节描述了感知、记忆、语言和思维等方面的模型。还讨论并行分布式处理模型和神经生理学之间的关系,或者描述专门针对神经生理学数据的模型。这本书的结尾是一个结语,指出了该方法的优点和缺点以及未来的发展方向。

在《并行分布式处理(PDP)》一书出版25周年之际,麦克莱兰著文回顾了最初的动机,评估PDP对认知科学领域的影响,并展望未来(参考资料[4])。文中强调并行分布式处理或PDP理论框架与符号认知方法有根本的不同,也许最显著的区别是PDP认为认知是涌现的。根据涌现原理(principle of emergence),复杂系统的规则或规律行为是组成元素之间相互作用的结果,每个行为都根据相对简单的原理,与整个系统的行为几乎很少或没有明显关系。文章介绍了并行分布式处理网络的例子,如图4所示。这是利用前馈模型学习将字母字符串的拼写,映射到它们的声音上。包括字素单元(输入母字符串的拼写),隐藏单元和输出单元,该模型从一组训练示例中学习,按照目标函数相对于每个连接权重的梯度,调整每个连接权重。

图4 前馈模型(参考资料[4])

【扬·勒村的LeNet-5卷积神经网络架构】

扬·勒村(Yann LeCun,出生于1960.7.8.)是一位法国计算机科学家,纽约大学库兰特数学科学研究所教授,并且是Facebook副总裁兼首席AI科学家,主要从事机器学习,计算机视觉,移动机器人和计算神经科学领域的研究。

图5 扬·勒村

1998年,扬·勒村、伊恩·波托、约书亚·本吉奥和帕特里克·霍夫纳在题为“基于梯度的学习应用于文档识别”(参考资料[5])的研究论文,中介绍了LeNet-5架构——它是最早,最基本的CNN架构之一,专为手写和机器打印字符识别而设计。

卷积神经网络(CNN)

CNN是一类深度神经网络,像几乎所有其他神经网络一样,它们使用反向传播算法的版本进行训练。它们的不同之处在于体系结构。CNN可以识别出具有极大可变性的图案(例如手写字符),识别图像中的特定特征并对其进行分类,广泛用于分析视觉图像。其应用范围包括图像和视频识别,图像分类,医学图像分析,计算机视觉和自然语言处理。

CNN中的“卷积”一词表示卷积的数学函数,它是一种特殊的线性运算,简而言之,表示为矩阵的图像与滤波核矩阵相乘,以提供用于从图像中提取特征的输出(图6)。

图6 卷积示意图

例如,一张尺寸为204x175的猫的图像,可以将其表示为值在0到1之间的矩阵,其中1是白色,0是黑色。应用卷积(图7),我们发现滤波器执行了一种垂直线检测。猫头部的垂直条纹在输出中突出显示。 由于内核(9x9)的大小,输出图像在两个维度上均缩小了8个像素。

图7 图像的卷积运算示例(参考资料[6])

CNN架构有两个主要部分:(1)一种卷积工具,可在称为“特征提取”的过程中分离并识别图像的各种特征以进行分析;(2)完全连接的层,利用卷积过程的输出,进行分类——根据卷积段提取的特征,预测图像的类别。

图8 卷积神经网络架构(参考资料[6])

组成CNN的层分为三种类型,即卷积层(从输入图像中提取各种特征),池化层(减小卷积特征图的大小以减少计算成本)和完全连接(进行数学函数运算,分类)层。当这些层堆叠时,将形成CNN体系结构。除了这三层,还有两个重要的成分,分别是辍学层(从神经网络中丢弃了一些神经元,避免过度拟合)和激活函数(增加了非线性,有几种常用的激活函数ReLU,Softmax,tanH和Sigmoid函数)。

LeNet-5 CNN架构

扬·勒村于1998年发布的早期卷积神经网络LeNet-5,能够识别手写字符,其架构如图9。

图9 LeNet架构(参考资料[6])

C1——第一卷积层。由6个大小为5x5的卷积核“遍历”输入图像,输出6幅28x28大小的图像。卷积神经网络的第一层通常识别基本特征,如直边和角点。

S2——子采样层,也称为平均池化层(请注意,尽管“最大池化”的工作效果更好,但在20世纪90年代尚未发现这一点),把C1输出中每四个像素的平方平均为一个像素。S2将6个28x28图像缩小2倍,生成6个大小为14x14的输出图像。

C3——第二卷积层。它由16个卷积核组成,每个核的大小为5x5,它再次“遍历”6个14x14的图像,生成16个10x10大小的图像。

S4——第二个平均池化层。S4将16个10x10图像缩小为16个5x5图像。

C5——具有120个输出的完全连接的卷积层。120个输出节点中的每一个都连接到来自S4的所有400个节点(5x5x16)。此时输出不再是图像,而是长度为120的1D数组。

F6——将120阵列映射到长度为10的新阵列的完全连接层。数组的每个元素现在对应于一个手写数字0-9。

输出层——一个softmax函数(请注意,尽管ReLU的工作效果更好,但在20世纪90年代尚未发现这一点),它将F6的输出转换成10个值的概率分布,这些值的和等于1。

【神经网络道路曲折】

在20世纪50-60年代,感知机的兴衰有过曲折历程。在20世纪80-90年代,神经网络的复苏也并非一帆风顺,实际上,经历了两起两落。

在20世纪80年代初走出第一个AI寒冬后,在接下来的十年里,人工智能行业的商业投资从1980年的几百万美元激增到1988年的数十亿美元。专家系统,作为模拟人类专家解决狭窄的特定问题(如诊断传染病或识别化合物)的决策能力的专门系统,变得非常流行。但这些专家系统最终被证明维护起来过于昂贵,因为它们很难更新,不能学习,而且很脆弱,在处理异常的输入时不够健壮。因为专家系统与公众和科学家的期望不符,导致了1987年人工智能专用硬件市场的崩溃,随着出现第二个AI寒冬。与此同时,虽然反向传播算法的应用,大大促进了连接主义的兴起,但神经网络还有一些不令人满意的地方,人们无法理解神经网络所采用的分析策略。这也使得20世纪80年代末,神经网络研究又跌入低谷。

20世纪90年代,新一代技术科学家,例如,LeNet-5 卷积神经网络架构,使神经网络和计算机学习重新回到了AI研究的前沿。但是,在世纪之交,神经网络又一次衰落,一度被支持向量机(SVP)所取代。SVP是机器学习的另一种方法,它建立在一些非常干净优雅的数学基础上。在20世纪末到21世纪世纪的头几年,神经网络陷入了“日全食”,直至到21世纪第二个十年又复兴。

麻省理工学院大脑和认知科学教授托马索·波吉奥(Tomaso Poggio)说:“有一种观点认为,科学中的想法有点像病毒的流行病”。“流感病毒的基本毒株有五六种,而且每一种都会有25年左右的周期。人们被感染后,会产生免疫反应,因此在接下来的25年内不会被感染。然后是一个新的一代,准备被同一种病毒感染。在科学领域,人们会爱上一个想法,对它感到兴奋,但,他们又会厌倦它,把它抛弃,然后接种疫苗。所以思想应该有同样的周期性!”(参考资料[7])。

【结语】

就像重新发现古希腊罗马文明使中世纪的欧洲摆脱停滞进入文艺复兴时期一样,在AI寒冬后,神经网络技术在20世纪80年代得到了复苏,但随后又经历的曲折的历程,几经起伏。

今天人工智能深度学习的繁荣,得益于科学家的坚持不懈的努力和计算机技术进步。应该说,20世纪80-90年代的多层反向传播算法和深度卷积神经网络架构为21世纪10年代的深度学习繁荣打下了基础。

参考资料:

[1] David E. Rumelhart, James L. McClelland and PDP Research Group. Parallel Distributed Processing, Volume 1 : Explorations in the Microstructure of Cognition: Foundations .A Bradford Book. 1986

[2] James L. McClelland, David E. Rumelhart and PDP Research Group. Parallel Distributed Processing, Volume 2: Explorations in the Microstructure of Cognition: Psychological and Biological Models. A Bradford Book. 1987

[3] David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams . Learning representations by back-propagating errors. Nature, volume 323, pages533–536(1986)

[4] Timothy T. Rogers,a James L. McClellandb. Parallel Distributed Processing at 25: Further Explorations in the Microstructure of Cognition. Cognitive Science 38 (2014) 1024–1077

[5] Y. LeCun, L. Bottou,Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, november 1998

[6] Thomas Wood. Convolutional Neural Network.

https://deepai.org/machine-learning-glossary-and-terms/convolutional-neural-network

[7] Larry Hardesty. Explained: Neural networks

https://www.csail.mit.edu/news/explained-neural-networks

转载本文请联系原作者获取授权,同时请注明本文来自王宏琳科学网博客。

链接地址: http://blog.sciencenet.cn/blog-3005681-1281372.html

上一篇: 机器学习漫谈:感知机的兴衰 返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有